情报分析与研究基于词汇链的路线图关键词抽取方法研究

引用本文

叶春蕾, 冷伏海. 情报分析与研究基于词汇链的路线图关键词抽取方法研究. 现代图书情报技术, 2013, 29(1): 50-56
Ye Chunlei, Leng Fuhai. Study on the Keyword Extraction from Roadmap Based on the Lexical Chains. New Technology of Library and Information Service, 2013, 29(1): 50-56 复制到剪切板

Permissions

情报分析与研究基于词汇链的路线图关键词抽取方法研究

叶春蕾^1,², 冷伏海¹

1、北京城市学院信息学部北京 100094

2、中国科学院国家科学图书馆北京 100190

摘要

提出一种基于词汇链的关键词抽取方法。该方法通过构造词汇链来描述技术路线图的技术领域主题内容, 并将词汇链作为表征技术路线图中领域关键词、核心技术关键词及其语义关系的词汇序列。实验表明该方法抽取的关键词能够更全面地揭示技术路线图的技术领域主题内容, 其抽词结果的准确率和召回率较TF-IDF方法有明显的提高。

关键词: 词汇链; 关键词抽取; 技术路线图; TF-IDF

Study on the Keyword Extraction from Roadmap Based on the Lexical Chains

Ye Chunlei^1,², Leng Fuhai²

1、Information Department, Beijing City University, Beijing 100094, China

2、National Science Library, Chinese Academy of Sciences, Beijing 100190, China

Abstract

The paper proposes a method to extract the keyword based on the lexical chains. The method can describe the technical field topics in the technology roadmap by constructing lexical chains, and regard the lexical chains as semantic relations of keyword in the technical field. The experiment shows that this method can extract the keyword to reveal the content of technical field in technology roadmap more comprehensively, and can significantly improve the precision and recall rate than TF-IDF.

Keyword: Lexical chains; Keyword extraction; Technology roadmap; TF-IDF

Show Figures

1 引言

表征科学技术发展过程中的知识载体有多种形式, 其中包括期刊论文、研究报告、科研规划、摘要、索引、产品资料等, 它们蕴含着大量的揭示科技发展演化过程和发展水平的技术主题信息, 其最初的表现形式就是技术关键词, 因此, 根据科技文献所表达的内容进行表征主题特征的关键词抽取是科技情报研究的主要内容之一。

技术路线图在表达和反映科研技术发展重点或方向方面具有超前性, 其内容可以确定技术领域及其发展的大体方向, 并能预见技术未来的发展趋向。对这样一类文档进行情报分析研究的基础是获得其文本中所包含的表征技术领域、未来技术主题特征的关键词, 同时, 技术路线图中的表征主题特征的关键词自动抽取是面向未来的技术分析研究中的一项重要的基础研究工作。因此本文在结合技术路线图文本结构的基础上, 提出一种基于
词汇链的关键词自动抽取方法, 通过词汇链的构建揭示技术领域及其未来技术发展方向。

2 研究背景

关键词自动提取在文本挖掘领域被称为主题词抽取(Term Extraction), 主题词抽取主要指通过扫描文本来获得其中所包含的主题单元, 它能丰富领域主题词库^[1], 并为知识抽取、文本挖掘、链接分析等提供结构化知识单元, 实现领域新兴研究探测等^[2]; 在计算语言学领域, 关键词抽取的工作重点是术语自动识别(Term Recognition), 术语识别可以从文本中自动发现领域术语^[3], 获取领域术语表中未登录的规范化词汇, 丰富术语表或术语库的内容; 在信息检索领域, 关键词抽取是指自动标引(Automatic Indexing), 自动标引利用计算机处理技术从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志^[4]。近年来, 国内外对基于词汇链的关键词抽取方法进行了广泛而深入的研究。词汇链(Lexical Chains)是指围绕一个主题的一系列相关的词共同组成的词汇集合, 这些词语之间存在一定的语义相关性, 因此词汇链其实就是文档中词语间语义关系的外在表现, 在一定程度上反映出文本结构和主题信息。Halliday等^[5]最早提出词汇链, 用来表示将文本中相关的词构成一个词语链的过程。构建词汇链的方法有很多, Morris等^[6]提出一种贪婪算法以构建词汇链, Silber等^[7]和Galley等^[8]也分别提出有效的构建词汇链的方法。

在词汇链构建过程中, 词汇间的语义相关度计算是重要的研究内容。Ercan等^[9]基于WordNet中的语义关系定义词汇间的语义关系, 以完成关键词的抽取。目前, 国内的研究者在确定构建词汇链的语义关系时, 大多是以《知网》作为语义获取的语义词典^{[10, 11, 12, 13]}, 裘江南等^[14]主要以《同义词词林》语义词典作为词汇间语义关系的计算指标。

技术路线图的文本结构特征明显, 具有明显的章节编号。章节标题一般都表示为技术领域的主题, 而主题的论述往往集中在文本的几个段落中, 因此本文结合技术路线图的文本结构特征, 提出一种基于词汇链的关键词自动抽取方法, 通过词汇链的构建和关键词的抽取揭示技术领域及其未来技术发展方向, 其创新点主要体现在三个方面:关键词的语义相关度计算相对独立, 不依赖于任何词表或词典; 基于共词分析的改进等价指数能较好地适用于技术路线图分析; 以词汇链的方式表达与某一特定技术领域相关的技术主题特征。

3 词汇链构建

3.1 基于N-Gram的初始词汇集构建

N-Gram是一种常用的语言模型, 又称为N元语言模型^[15]。本文使用该模型将生成大量的N-Gram数据项, 在实际应用中, 只考虑0个、1个、2个或3个历史信息, 形成1-Gram、2-Gram、3-Gram和4-Gram数据项。但是这些数据项并不都是关键词, 其中包含大量的噪声数据, 因此定义两个指标用于初始词集的筛选。

(1)频度NF(t)

N-Gram数据项的频度指的是数据项t在段落p中出现的次数, 其计算公式如下:
NF(t)=∑ Gni=1(w_i=t) (1)

其中, Gn是段落p中N-Gram数据项的总数, w_i是段落p中的第i个N-Gram数据项。

(2)聚合度NC(t)

N-Gram数据项的聚合度指的是包含数据项t的段落总数, 其计算公式如下:
NC(t)=∑ Pni=1φ _i (2).

其中, Pn是段落总数。
φ _i=1段落p_i中包含数据项t
0段落p_i中不包含数据项t

根据以上两项指标可以看出, 当一个N-Gram数据项t的频度越大、聚合度越高, 就越有可能成为一个关键词。

3.2 关键词识别方法

关键词一般是指在一个领域中经常使用的、形式较为固定、表达某个特定概念的词语。汉语中的关键词是由一个或多个字组成, 英语中的关键词是由一个或多个单词组成。关键词符合计算语言学领域的术语特征, 因此本文中的关键词识别可以借用术语所具有的结构特点, 如边界特点、长度特点以及词性特点。C-value系列方法的出现推进了学科领域术语自动识别技术的发展, C-value 是一种领域独立的多词术语识别方法, 其综合了语言学和统计的信息^[16]。它是针对术语词频计算的一种改进, 可增进嵌套多词术语的识别, 排除一些非术语的词汇。本文采用C-value方法对经过初步筛选后的初始词汇集进行计算, 根据关键词的特征对初始词汇集中的每个词汇进行C-value值的计算, 以该值的大小作为关键词识别的依据。同时, 本文也采用文献[16]中定义的名词短语特性, 结合C-value值筛选出符合名词短语特征的关键词。

3.3 语义相关度计算

构建词汇链的初始值是由技术路线图中的章节标题内容确定的, 从应用的角度来看, 该初始值被称为领域关键词, 它标志着技术路线图中的某个技术研究领域, 从文本中抽取领域所包含的所有技术词汇被称为候选关键词。这些候选关键词和领域关键词之间关联的紧密程度由它们之间的语义关联度确定。当一个候选关键词与领域关键词之间的关联度高时, 该候选关键词将更可能表征该领域的核心主题, 因此, 词汇间的语义关联度计算是词汇链构建的基础。

本文研究的应用场景虽然和裘江南等^[14]的研究很相似, 但是在语义相关度计算方面与其截然不同。在定义词汇间的语义关联度时没有参考任何的词典和词表, 主要是基于共词分析方法计算候选关键词与领域关键词在文本同段中的语义共现关系, 段落本身的语义信息对词汇间关联强度有较大的影响。同时, 候选关键词和领域关键词在全文中的词频也影响词汇间的语义关联强度, 因此定义了一种基于同段共现分析的关联度计算指标, 即改进的等价指数(Equivalence Coefficient), 简称为E指数。

等价指数是共词分析方法中的一项重要的统计指标。共词分析指的是两个词共同出现(共现)在同一窗口单元, 如一定词语间隔、一句话、一个段落、一篇文档等。两个词汇共现的频次与其在语义上的关联性成正比, 共现频次越高, 其相互间的关联越紧密。共现分析的主要目标是通过统计词汇在文献中分布的特征来获取对词汇语义的认识。Callon等^[17]探索以聚合物化学为例的基础研究和技术研究之间交互关系时, 提出等价指数(Equivalence Index), 该指数用来计算两个词汇之间通过共现关系所确定的关联强度, 其中共现单元为整个文献。该指标提出后得到研究人员的广泛应用, 它在揭示词汇对间的共现语义关联强度方面起到很大的作用。

由于本文的研究对象是技术路线图这类单篇文档, 传统的共现单元无法在此得到应用, 因此提出以文本中包含的每个段落作为词共现的单元, 在计算候选关键词和领域关键词之间的关联强度时不仅要考虑两者在同段内的共现频次, 更要考虑词汇本身在全文中的频次或段内的频次。定义E指数的目的是计算领域关键词和候选关键词之间的关联程度, 当确定一个领域关键词i后, 候选关键词j与它的关联程度由它们之间的E指数确定, E指数计算方法如下:
E_ij = C_ijC_i· C_ijC_j = C_ij²C_iC_j (3).

其中, E_ij为领域关键词i和候选关键词j之间关联强度的权重, C_ij是候选关键词j在领域关键词i所在段落中出现的次数, C_i是领域关键词i在全文中出现的频次, C_j是候选关键词j在全文中出现的频次。E指数可以反映词汇对中每一个出现在对方集合的频次, 因此具有包容性。E值越大, 表明两个词汇共同出现的次数占其各自出现总次数的比例越大, 其联系就可能越密切, 这样可以很好地保留与领域关键词联系紧密的低频词。

统计频度-逆文档频度(TF-IDF)是用于词语-文档矩阵中词语权重表示的常用方式, 同时也作为一项重要的相似度计算指标^{[18, 19]}。为了研究结果的可比性, 本文定义TF-IDF用于计算候选关键词和领域关键词间的语义相关度, 具体定义如下:
w(t_j, p_i)=tf(t_j, p_i)× logN_iN_i(t_j) (4).

其中, t_j是候选关键词, p_i是领域关键词i所在文档段落, w(t_j, p_i)为候选关键词t_j在领域关键词i所在文档段落p_i中的权重, tf(t_j, p_i)是t_j在p_i中的频次, N_i为领域关键词在文档中出现的段落总数, N_i(t_j)是t_j出现在p_i中的段落总数。

4 基于词汇链的关键词抽取

本文构建的词汇链是由领域关键词和与领域关键词之间存在一定语义关联度的若干个候选关键词集合组成, 每个词汇都是一个结构体, 除了本身的词汇信息外还包括段落编号、句子编号、C-value值、E值等特征值, 每个词汇在词汇链中的位置是其在文档中位置的体现。词汇链的初始值是领域关键词, 因此关键词抽取其实就是选择词汇链中与领域关键词语义关联度高的候选关键词, 这些候选关键词形成技术领域的技术主题特征, 因此, 基于所定义的词汇链特征和结构, 本文定义的基于词汇链的关键词抽取方法主要包括词汇链构建和关键词抽取两个部分, 其中词汇链构建算法如下:.

输入:分析文本.

输出:词汇链集.

步骤如下:.

①对分析文本全文以段落为单位进行N-Gram切分, 使用Stanford Parser工具包对切分结果进行词性分析, 以频度和聚合度进行初步的筛选, 形成初始词集。

②计算初始词集中所有词语的C-value值, 满足阈值的词语构成词汇链的候选关键词集W={ w₁, w₂, … , w_n} 。

③提取技术路线图的章节标题内容, 进一步形成领域关键词集F={ f₁, f₂, … , f_m} , 其中f_j代表一个特定的技术领域, j=1; j≤ m; 选择f_j作为词汇链的初始词。

循环.

④i=1; i≤ n; 计算候选关键词w_i与f_j的E值。

⑤i+ + , 继续执行步骤④, 直至W遍历结束。

⑥j+ + , 继续执行步骤③, 直至F遍历结束。

⑦完成所有词汇链的构建。

对于一个特定的技术领域, 可能存在多条词汇链揭示文本不同位置对该技术领域内容和特征的阐述。由于技术路线图文本结构的特点, 采用筛选的机制选择目标对象链, 因此在形成词汇链的基础上, 关键词抽取算法如下:.

输入:词汇链集合LS={ L₁, L₂, … , L_s} , 其中L_k是某一技术领域的词汇链集合, L_k={ l₁, l₂, … , l_t} .

输出:技术领域的核心技术关键词集.

步骤如下:.

①1≤ k≤ s, 以L_k作为某一技术领域待分析词汇链集合.

循环.

②1≤ i≤ t, 以l_i中包含的候选关键词内容和领域的相关性及其与领域关键词的E值结果为依据, 进行对象链选择。

③将对象链l_i中包含的候选关键词按照其与领域关键词间的E值进行降序排列。

④依次从排序后的对象链中选择满足阈值的候选关键词作为核心技术关键词, 直至关键词的数目达到预定的个数。

⑤k+ + , 继续执行步骤①, 直至LS遍历结束。

⑥完成关键词抽取。

本文将最终抽取的结果定义为该技术领域所包含的核心技术关键词, 由它们来表征该技术领域未来技术的主题特征。

5 实验及结果分析

使用Java和SQL Server 2005设计测试系统, 实现基于词汇链的关键词抽取方法, 为进一步验证基于E指数指标构建的词汇链在关键词抽取中的有效性, 将抽取结果与以本文定义的TF-IDF统计指标方法进行关键词抽取的结果进行对比。

5.1 实验数据源及结果分析

以美国NASA的“ Draft Nanotechnology Roadmap” (纳米技术路线图)^[20]作为数据源, 以其为本文研究方法的实证对象, 并选取该文档中的“ Lightweight Material” (轻质材料)技术领域作为实证对象, 对其进行词汇链的构建, 以完成文档的核心技术关键词抽取。

单壁碳纳米管(Single Wall Carbon Nanotube, SWNT)是纳米轻质材料发展的终极目标, 与传统碳纤维增强复合材料(Carbon Fiber Reinforced Composites, CFRP)的测量特性和各种航空材料对比, 它的强度系数(Tensile Strength)和刚度(Strength Stiffness)有新的发展标准。虽然开发连续单壁碳纳米管纤维的终极目标还有待实现, 但大量的研究已经集中到开发碳纳米管纤维上, 并成功研发出干法和湿法纺丝技术来生产这些纤维^[20]。

选择领域关键词“ Lightweight Material” 作为词汇链的初始词, 对该技术路线图进行全文统计分析, 共获得该领域的三个词汇链。根据该技术路线图的文本结构特点, 需要在这三个词汇链中筛选出目标词汇链作为关键词抽取的对象链, 确定目标词汇链是进一步研究的基础。因此, 本文对这三个词汇链分别进行E指数的均值和均方差的数学统计, 得到分析数据如表1所示:

表1 词汇链统计信息比较

可以看出, 在这三个词汇链中, 词汇链2不管是在词汇数量、E均值还是E均方差值方面都具有更强的显著性特征。其中E平均值偏高表明该词汇链中各候选词和领域词之间联系紧密, E标准方差值偏高表明该词汇链中存在部分候选词距中心点偏离比较大, 那些与中心点正向偏离值大的候选词更有可能是该技术领域中最核心的技术关键词。而且各个词汇链中词汇内容也可确定词汇链2更能表达“ Lightweight Material” 技术领域中的技术内容, 因此最后选取词汇链2为关键词抽取的对象链。

将词汇链2中包含的所有候选关键词以其与“ Lightweight Material” 的E值降序排列, 完成关键词抽取。在构建词汇链2时, 主要以E指数作为统计指标。为了验证该方法的有效性, 同时使用本文所定义的TF-IDF统计指标进行核心技术关键词的抽取, 确定每种指标抽取的关键词个数相同, 得到抽取结果对比如表2所示:

表2 抽取结果对比

(1)在以E指数作为指标的抽词列表中, 有些关键词, 如“ tensile strength(拉伸强度)” , 虽然它的频次偏低, 但是它在文本中出现的6次都是发生在与“ Lightweight Material” 同段共现中, 表明两者关联程度很强, 因此确定“ Lightweight Material” 的核心技术时首选就是“ tensile strength” 。相应地, 该关键词在以E指数为统计指标的抽词列表中处于第一位, 而且其E值明显高于其他关键词的E值。通过对技术路线图内容分析可知, 拉伸强度是轻质材料未来发展的重要水平特征, 该关键词的识别为构建轻质材料技术领域未来技术发展方向及其发展水平特征提供基础。但是在以TF-IDF为统计指标的列表中, 该关键词出现在第三位。同时“ carbon nanotube” 这样的通用关键词出现在列表的第二位, 该关键词对技术领域形态的构建没有太大意义。

(2)对本文使用的技术路线图内容分析可知, 中等模量碳纤维是碳纤维性能提高的一种重要对照技术指标, 该关键词的识别为相关信息的检索提供很好的主题词参考。在以E指数作为指标的抽词列表中, 关键词“ intermediate modulus carbon fiber(中等模量碳纤维)” 虽然在文档中出现的频次仅为2, 但是由于它具有较高的E值, 因此该关键词在列表中处于第三位; 但是在以TF-IDF为指标的列表中仅出现在第24位。

(3)“ single wall carbon nanotube(单壁碳纳米管)” 是轻质材料技术领域发展的终极目标。虽然它的频次仅为3, 但是由于其中2次都是与“ Lightweight Material” 同段共现, 因此获得较高的E值, 所以出现在以E指数为统计指标的抽词列表的第4位, 作为优先考虑的核心技术词出现; 而在以TF-IDF为指标的抽词列表中仅出现在第18位。

(4)“ 30% lighter” 是碳纤维增强聚合物复合材料重量降低的重要指标, 该候选词的识别能够在一定程度上揭示碳纤维增强聚合物复合材料未来发展阶段的水平特征。在技术路线图中, 该关键词的频次虽然仅为3, 但是却因为较高的E值, 使其在以E指数为统计指标的列表中处于第13位, 而在以TF-IDF为指标的抽词列表中仅出现在第23位。

综上分析可知, 以E指数为统计指标的关键词抽取结果更能表达“ Lightweight Material” 技术领域未来技术发展特征, 为科技战略决策提供更多的情报支持。

5.2 评价方法

一般情况下, 对关键词抽取结果的判定存在很大的主观性。即使对同一篇文档, 不同的人也会获得不同的抽取结果, 在现实应用中很难找到标准的关键词抽取评测语料。有研究者提出两种评价方法^[21]:有参照时的标引结果评价方法和无参照时的标引结果评价方法, 本文关键词的抽取方法是抽取, 而非赋词标引, 因此可以直接使用文本主题内容的“ 替代品” , 即由人工标注的关键词作为评价的参照, 然后将待评价的关键词集合和人工标注关键词集合进行相似度匹配, 匹配程度反映了待评价的关键词集在表达文本主题内容时的精确程度。传统的模式匹配计算结果是:只有当两个字符串完全相等时, 结果为1; 否则为0。本文根据实际情况扩展了匹配的计算方法, 定义如下:
isMatch=1S₁是S₂的子集, 且S₁至少包含两个单词
0其他 (5).

其中, isMatch为任意两个短语字符串S₁和S₂的匹配值。

在不考虑核心技术优先级的前提下, 本文采用Precision值、Recall值和F-measure值对抽取结果做一般性的自动评价^[22], 评价的参照库为领域专家人工标注出10个核心技术关键词, 评价结果如表3所示:

表3 测试结果对比

可以看出, 与TF-IDF统计指标方法相比, 在词汇链中使用E指数为指标的召回率提高了14.29%, 准确率提高了14.27%。

6 结语

为了能在不依赖于任何词典或词表的前提下更好地完成技术路线图中表征技术主题特征的关键词抽取工作, 本文提出一种基于词汇链的关键词抽取方法。该方法充分利用基于统计的自然语言处理、信息分析等研究方法, 从语义的角度提高关键词抽取的性能。实验表明, 采用E指数为统计指标构建的词汇链进行关键词抽取, 比采用TF-IDF统计指标构建的词汇链抽取在召回率和准确率方面均有所提高。

但是, 由于在利用C-value值进行领域关键词识别时没有考虑单词短语识别的问题, 因此诸如“ graphene(石墨烯)” 、“ Metamaterial(超材料)” 这样的单词没有识别出来, 一定程度上影响了关键词抽取的效果, 这将是下一步研究工作的重点。

参考文献

View Option

[1]	Benchmarking the Performance of Two Automated Term Extraction Systems: LOGOS and ATAO [EB /OL ]. [2012- 03 -07]. http: //olst. ling. umontreal. ca/pdf/memoirelove. pdf. [本文引用:1]
[2]	Kajikawa Y, Sugiyama Y. Causal Knowledge Extraction by Natural Language Processing in Material Science: A Case Study in Chemical Vapor Deposition[J]. Data Science Journal, 2006(5): 108-118. [本文引用:1]
[3]	游宏梁, 张巍, 沈钧毅, 等. 一种基于加权投票的术语自动识别方法[J]. 中文信息学报, 2011, 25(3): 6-16. (You Hongliang, Zhang Wei, Shen Junyi, et al. A Weighted Voting Based Automatic Term Recognition Method [J]. Journal of Chinese Information Processing, 2011, 25(3): 6-16. ) [本文引用:1] [CJCR: 0.7821]
[4]	张静. 自动标引技术的回顾与展望[J]. 现代情报, 2009, 29(4): 221-225. (Zhang Jing. Review and Prospect of Automatic Indexing [J]. Journal of Modem Information, 2009, 29(4): 221-225. ) [本文引用:1]
[5]	Halliday M A K, Hasan R. Cohesion in English [M]. London, UK: Longman, 1976. [本文引用:1]
[6]	Morris J, Hirst G. Lexical Cohesion Computed by Thesaural Relations as an Indicator of the Structure of Text[J]. Computational Linguistics, 1991, 17(1): 21-48. [本文引用:1] [JCR: 0.721]
[7]	Silber H G, McCoy K F. Efficiently Computed Lexical Chains as an Intermediate Representation for Automatic Text Summarization[J]. Computational Linguistics, 2002, 28(4): 487-496. [本文引用:1] [JCR: 0.721]
[8]	Galley M, McKeown K. Improving Word Sense Disambiguation in Lexical Chaining[C]. In: Proceedings of the 18th International Joint Conference on Artificial Intelligence, Acapulco, Mexico. 2003: 1486-1488. [本文引用:1]
[9]	Ercan G, Cicekli I. Using Lexical Chains for Keyword Extraction[J]. Information Processing & Management, 2007, 43(6): 1705-1714. [本文引用:1] [JCR: 1.119]
[10]	索红光, 刘玉树, 曹淑英. 一种基于词汇链的关键词抽取方法[J]. 中文信息学报, 2006, 20(6): 25-30. (Suo Hongguang, Liu Yushu, Cao Shuying. A Keyword Selection Method Based on Lexical Chains [J]. Journal of Chinese Information Processing, 2006, 20(6): 25-30. ) [本文引用:1] [CJCR: 0.7821]
[11]	刘铭, 王晓龙, 刘远超. 基于词汇链的关键短语抽取方法的研究[J]. 计算机学报, 2010, 33(7): 1246-1255. (Liu Ming, Wang Xiaolong, Liu Yuanchao. Research of Key-Phrase Extraction Based on Lexical Chain [J]. Chinese Journal of Computers, 2010, 33(7): 1246-1255. ) [本文引用:1] [CJCR: 1.6611]
[12]	胡学钢, 李星华, 谢飞, 等. 基于词汇链的中文新闻网页关键词抽取方法[J]. 模式识别与人工智能, 2010, 23(1): 45-51. (Hu Xuegang, Li Xinghua, Xie Fei, et al. Keyword Extraction Based on Lexical Chains for Chinese News Web Pages [J]. PR & AI, 2010, 23(1): 45-51. ) [本文引用:1]
[13]	宋培彦, 杨代庆. 基于语义网络的中文词汇链构造方法[J]. 图书情报工作, 2011, 55(22): 26-30. (Song Peiyan, Yang Daiqing. Constructing Chinese Lexical Chains Based on Semantic Network [J]. Library and Information Service, 2011, 55(22): 26-30. ) [本文引用:1] [CJCR: 1.0423]
[14]	裘江南, 罗志成, 王延章. 基于词汇链的应急预案主题抽取方法研究[J]. 情报学报, 2008, 27(6): 891-896. (Qiu Jiangnan, Luo Zhicheng, Wang Yanzhang. Reseach on Semantic Relatedness Based Subjects Extraction from Emergency Plans Literature [J]. Journal of the China Society for Scientific and Technical Information, 2008, 27(6): 891-896. ) [本文引用:2] [CJCR: 1.1348]
[15]	王小捷, 常宝宝. 自然语言处理技术基础[M]. 北京: 北京邮电大学出版社, 2002. (Wang Xiaojie, Chang Baobao. Foundation of Natural Language Processing [M]. Beijing: Beijing University of Posts and Telecommunications Press, 2002. ) [本文引用:1]
[16]	Frantzi K T, Ananiadou S, Tsujii J I. The C-value/NC-value Method of Automatic Recognition for Multi-word Terms [C]. In: Proceedings of the 2nd European Conference on Research and Advanced Technology for Digital Libraries. 1998: 585-604. [本文引用:1]
[17]	Callon M, Courtial J P, Laville F. Co-word Analysis as a Tool for Describing the Network of Interactions Between Basic and Technological Research: The Case of Polymer Chemistry[J]. Scientometrics, 1991, 22(1): 155-205. [本文引用:1] [JCR: 1.966]
[18]	Sebastiani F. Machine Learning in Automated Text Categorization[J]. ACM Computing Surveys, 2002, 34(1): 1-47. [本文引用:1] [JCR: 4.529]
[19]	黄承慧, 印鉴, 侯昉. 一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J]. 计算机学报, 2011, 34(5): 856-864. (Huang Chenghui, Yin Jian, Hou Fang. A Text Similarity Measurement Combining Word Semantic Information with TF-IDF Method [J]. Chinese Journal of Computers, 2011, 34(5): 856-864. ) [本文引用:1] [CJCR: 1.6611]
[20]	Meador M A, Files B, Li J, et al. Draft Nanotechnology Roadmap: Technology Area 10 [R]. National Aeronautics and Space Administration, 2010. [本文引用:2]
[21]	章成志, 周冬敏. 自动标引通用评价模型研究[J]. 情报学报, 2009, 28(1): 40-47. (Zhang Chengzhi, Zhou Dongmin. General Evaluation Model for Automatic Indexing [J]. Journal of the China Society for Scientific and Technical Information, 2009, 28(1): 40-47. ) [本文引用:1] [CJCR: 1.1348]
[22]	van Rijsbergen C J. Information Retrieval [M]. Newton, MA, USA: Butterworth-Heinemann, 1979. [本文引用:1]

2012

0.0

... 2 研究背景关键词自动提取在文本挖掘领域被称为主题词抽取(Term Extraction), 主题词抽取主要指通过扫描文本来获得其中所包含的主题单元, 它能丰富领域主题词库^[1], 并为知识抽取、文本挖掘、链接分析等提供结构化知识单元, 实现领域新兴研究探测等^[2] ...

2006

0.0

2011

0.0

0.7821

... 在计算语言学领域, 关键词抽取的工作重点是术语自动识别(Term Recognition), 术语识别可以从文本中自动发现领域术语^[3], 获取领域术语表中未登录的规范化词汇, 丰富术语表或术语库的内容 ...

2009

0.0

... 在信息检索领域, 关键词抽取是指自动标引(Automatic Indexing), 自动标引利用计算机处理技术从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志^[4] ...

1976

0.0

... Halliday等^[5]最早提出词汇链, 用来表示将文本中相关的词构成一个词语链的过程 ...

1991

0.721

0.0

... 构建词汇链的方法有很多, Morris等^[6]提出一种贪婪算法以构建词汇链, Silber等^[7]和Galley等^[8]也分别提出有效的构建词汇链的方法 ...

2002

0.721

0.0

... 构建词汇链的方法有很多, Morris等^[6]提出一种贪婪算法以构建词汇链, Silber等^[7]和Galley等^[8]也分别提出有效的构建词汇链的方法 ...

2003

0.0

... 构建词汇链的方法有很多, Morris等^[6]提出一种贪婪算法以构建词汇链, Silber等^[7]和Galley等^[8]也分别提出有效的构建词汇链的方法 ...

2007

1.119

0.0

Inform Process Manag. 2007, 43(6):1705 - 1714 DOI:10.1016/j.ipm.2007.01.015

Using lexical chains for keyword extraction

Abstract

Keywords can be considered as condensed versions of documents and short forms of their summaries. In this paper, the problem of automatic extraction of keywords from documents is treated as a supervised learning task. A lexical chain holds a set of semantically related words of a text and it can be said that a lexical chain represents the semantic content of a portion of the text. Although lexical chains have been extensively used in text summarization, their usage for keyword extraction problem has not been fully investigated. In this paper, a keyword extraction technique that uses lexical chains is described, and encouraging results are obtained.

... Ercan等^[9]基于WordNet中的语义关系定义词汇间的语义关系, 以完成关键词的抽取 ...

2006

0.0

0.7821

J Chin Inf Proc. 2006, (6):25 - 30

A Keyword Selection Method Based on Lexical Chains

一种基于词汇链的关键词抽取方法

SUOHong-guang^[1]; LIUYu-shu^[2]; CAOShu-ying^[3]

索红光^[1]; 刘玉树^[2]; 曹淑英^[3]

关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用.词汇链是由一系列词义相关的词语组成, 最初被用于分析文本的结构.本文提出了利用词汇链进行中文文本关键词自动标引的方法, 并给出了利用<知网>为知识库构建词汇链的算法.通过计算词义相似度首先构建词汇链, 然后结合词频与区域特征进行关键词选择.该方法考虑了词汇之间的语义信息, 能够改善关键词标引的性能.实验结果表明, 与单纯的词频、区域方法相比, 召回率提高了7.78%, 准确率提高了9.33%.

... 目前, 国内的研究者在确定构建词汇链的语义关系时, 大多是以《知网》作为语义获取的语义词典^{[10, 11, 12, 13]}, 裘江南等^[14]主要以《同义词词林》语义词典作为词汇间语义关系的计算指标 ...

2010

0.0

1.6611

Chin J Comput. 2010, (7):1246 - 1255

Research of Key-Phrase Extraction Based on Lexical Chain

基于词汇链的关键短语抽取方法的研究

LIUMing; WANGXiao-Long; LIUYuan-Chao

刘铭; 王晓龙; 刘远超

文中提出一种基于词汇链的关键短语抽取算法, 算法首先通过构造多条词汇链来表达文章的多条叙事线索, 并从多条词汇链中抽取富含主题信息的强链代表文章着重叙述的信息, 然后从强链中选取能够从不同侧面充分表达强链所述信息的短语作为文章的关键短语.实验表明该算法抽取的关键短语能够更全面地覆盖文章的主题信息.算法消除了多个关键短语表达同一主题信息的冗余性, 同时可以根据文章主题的分布动态确定输出的关键短语的数量, 其效果明显优于采用统计信息进行关键词抽取的方法.

2010

0.0

2011

0.0

1.0423

2008

0.0

1.1348

J Chin Soc Sci Tech Inf. 2008, (6):891 - 896

Research on Semantic Relatedness Based Subjects Extraction from Emergency Plans Literature

基于词汇链的应急预案主题抽取方法研究

QiuJiangnan^[1]; LuoZhicheng^[2]; WangYanzhang^[1]

裘江南^[1]; 罗志成^[2]; 王延章^[1]

本文针对应急预案自动主题抽取的需求, 采用词汇语义相关度计算的方法, 构建了一个基于词汇链算法且符合人的主观感受的主题抽取模型.模型根据应急预案文本的特点, 运用了自然语言处理技术, 改进了原始的词汇链生成算法, 提出了一种多因素词语权重算法.通过与人工抽取主题词的实验结果相比较, 该主题提取模型在查全率和查准率上都取得了较好的效果.

... 本文研究的应用场景虽然和裘江南等^[14]的研究很相似, 但是在语义相关度计算方面与其截然不同 ...

2002

0.0

... 1 基于N-Gram的初始词汇集构建N-Gram是一种常用的语言模型, 又称为N元语言模型^[15] ...

1998

0.0

... C-value系列方法的出现推进了学科领域术语自动识别技术的发展, C-value 是一种领域独立的多词术语识别方法, 其综合了语言学和统计的信息^[16] ...

1991

1.966

0.0

... Callon等^[17]探索以聚合物化学为例的基础研究和技术研究之间交互关系时, 提出等价指数(Equivalence Index), 该指数用来计算两个词汇之间通过共现关系所确定的关联强度, 其中共现单元为整个文献 ...

2002

4.529

0.0

... 统计频度-逆文档频度(TF-IDF)是用于词语-文档矩阵中词语权重表示的常用方式, 同时也作为一项重要的相似度计算指标^{[18, 19]} ...

2011

0.0

1.6611

Chin J Comput. 2011, (5):856 - 864

一种结合词项语义信息和TF-IDF方法的文本相似度量方法

HUANGCheng-Hui^[1]; YINJian^[2]; HOUFang^[3]

黄承慧^[1]; 印鉴^[2]; 侯昉^[3]

传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量, 利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项, 进一步增加了文本表示向量的维度, 但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息, 提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理, 然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度, 结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法.

... 统计频度-逆文档频度(TF-IDF)是用于词语-文档矩阵中词语权重表示的常用方式, 同时也作为一项重要的相似度计算指标^{[18, 19]} ...

2010

0.0

... 1 实验数据源及结果分析以美国NASA的“Draft Nanotechnology Roadmap”(纳米技术路线图)^[20]作为数据源, 以其为本文研究方法的实证对象, 并选取该文档中的“Lightweight Material”(轻质材料)技术领域作为实证对象, 对其进行词汇链的构建, 以完成文档的核心技术关键词抽取 ...

... 虽然开发连续单壁碳纳米管纤维的终极目标还有待实现, 但大量的研究已经集中到开发碳纳米管纤维上, 并成功研发出干法和湿法纺丝技术来生产这些纤维^[20] ...

2009

0.0

1.1348

J Chin Soc Sci Tech Inf. 2009, (1):40 - 47

General Evaluation Model for Automatic Indexing

自动标引通用评价模型研究

ZhangChengzhi^[1]; ZhouDongmin^[2]

章成志^[1]; 周冬敏^[2]

目前大多文档都不具有关键词, 但手工标引关键词费时费力且主观性较强, 因此关键词自动标引是一项值得研究的技术, 由此引发的标引结果有效评价问题也成为一个亟需解决的问题.然而, 评估关键词自动标引的性能并非一件容易的事情.针对常规自动标引评价方法存在的评价结果不能完全反映真实的标引结果以及评价成本高的情况, 本文提出一种通用的自动标引评价模型.该模型可以有效地利用外部资源, 在有参照情况下与无参照情况下, 分别对标引结果进行评价.实验结果表明, 自动标引通用评价模型能增加标引评价的可靠性, 并且降低标引评价的成本.

... 有研究者提出两种评价方法^[21]:有参照时的标引结果评价方法和无参照时的标引结果评价方法, 本文关键词的抽取方法是抽取, 而非赋词标引, 因此可以直接使用文本主题内容的“替代品”, 即由人工标注的关键词作为评价的参照, 然后将待评价的关键词集合和人工标注关键词集合进行相似度匹配, 匹配程度反映了待评价的关键词集在表达文本主题内容时的精确程度 ...

1979

0.0

... 在不考虑核心技术优先级的前提下, 本文采用Precision值、Recall值和F-measure值对抽取结果做一般性的自动评价^[22], 评价的参照库为领域专家人工标注出10个核心技术关键词, 评价结果如表3所示: 可以看出, 与TF-IDF统计指标方法相比, 在词汇链中使用E指数为指标的召回率提高了14 ...